821 research outputs found

    Reinforcement learning como reacción frente a anomalías en la red

    Get PDF
    Los algoritmos de aprendizaje reforzado o reinforcement learning son un tipo de algoritmos de machine learning que permiten a los agentes software determinar automáticamente el comportamiento ideal en un determinado contexto, con el objetivo de maximizar una recompensa mediante prueba y error. Se pretende evaluar la adecuación de reinforcement learning como método de reacción automática frente a un determinado tipo de problemas que puedan surgir en la red, relacionados con anomalías de seguridad, bien de manera aislada o en conjunción con otras técnicas de deep learning.Departamento de Teoría de la Señal y Comunicaciones e Ingeniería TelemáticaMáster en Ingeniería de Telecomunicació

    Aprendizaje por refuerzo profundo con OpenAI Gym

    Full text link
    El Aprendizaje por refuerzo profundo (DRL) surge de la inserción de métodos de Aprendizaje profundo (DL) en los algoritmos de Aprendizaje por refuerzo (RL). A pesar de los hitos logrados en este campo durante los últimos años, sigue ocupando un estatus de nicho en el panorama del Aprendizaje automático (ML), y apenas se ha nombrado durante el grado. El objetivo de este trabajo es partir de un estudio del RL clásico para terminar haciendo un estudio detallado de los principales algoritmos de DRL. Luego, hacemos una comparativa del rendimiento de los algoritmos en entornos de OpenAI Gym. El primer algoritmo de DRL que estudiamos es Deep Q-Network (DQN), que logra fusionar por primera vez RL y DL con éxito. Luego, investigamos sus tres extensiones más conocidas: Double Deep Q-Network (DDQN), Dueling Network y Prioritized Experience Replay (PER). Finalmente, introducimos una familia distinta de algoritmos con el estudio de Advantage Actor-Critic (A2C), que trata de resolver el mismo problema con un enfoque diferente. La comparativa la hacemos en cuatro entornos clásicos de OpenAI Gym y usando la librería Stable Baselines. Concluimos que, en los entornos sencillos que probamos, no se percibe la diferencia entre DQNysus extensiones. Por último, comprobamos que las mejoras que introdujo DQN son relevantes, desactivándolas y viendo que no logra aprender

    Aprendizaje por refuerzo en espacios de estados continuos

    Get PDF
    El aprendizaje por refuerzo es un modelo de aprendizaje que permite implementar comportamientos inteligentes de forma automática. La mayor parte de la teoría del aprendizaje por refuerzo tiene su fundamento en la programación dinámica, y por tanto, en lo que se denominan funciones de valor. Sin embargo, la implementación tradicional de estas funciones en forma tabular no es práctica cuando el espacio de estados es muy grande, o incluso infinito. Cuando se produce esta situación, se deben aplicar métodos de generalización que permitan extrapolar la experiencia adquirida para un conjunto limitado de estados, a la totalidad del espacio. Existen dos aproximaciones básicas para resolver este problema. Por un lado, están aquellas técnicas que se basan en obtener una discretización adecuada del espacio de estados. Por otro lado, están los métodos basados en implementar las funciones de valor con algún método supervisado de aproximación de funciones, como, por ejemplo, una red de neuronas. En esta tesis doctoral se pretende desarrollar métodos de aprendizaje por refuerzo que sean aplicables en dominios con espacios de estados continuos, partiendo de las dos aproximaciones planteadas anteriormente, fundiendo las ventajas de una y otra en un método eficaz y eficiente que permita que el aprendizaje sea un proceso totalmente automático.Reinforcement Learning is a technique that aliows to implement intelli gent behaviours automatically without the need of introducing knowledge or modeis about the domain. Most of the reinforcement learning theory is based on dynamic programming, and hence, on value functions. These func tions provide information about how good it is, in order to solve a defined task, to be in a given situation in the dornain, typically narned state, or even how good it is to execute a defined action if the system is in a given state. These functions, typically implernented using look-up tables, are used to represent the action policy that must guide the behaviour of the system. However, the traditional implementation of these functions as look-up tables is not practical when the state space is very large, or even infinite. When one of these situations appears, generalization methods must be applied in order to extrapolate the acquired experience for a limited set of states, to the whole space, so optirnal behaviours can be achieved, even when the whole domain has not been explored. Two main approaches can be found in the literature. Qn the one hand, there are methods based on learning an adequate state space discretization, so the continuous state space is mapped to a finite and reduced one. Qn the other hand, methods based oil irnplementing the value functions with sorne supervised learning technique for function approximation, for instance, a neural network, can be found. This dissertation tries to develop reinfor cernent learning methods that can be applied in domains with a continuous state space. The start point is given by the two approaches aboye, and it tries to j oin the advantages of one and another in an efficient and effective method that aliows the learning process be a fully automatic process where the designer has to introduce the less possible arnount of information about the task to solve

    Estudio de métodos y técnicas de aprendizaje por transferencia en el contexto de aprendizaje automático

    Get PDF
    La presente tesina de grado de investigación teórica propone un recorrido por los fundamentos que giran en torno a la técnica de aprendizaje por transferencia, subáreas y metodologías resolutivas presentes en distintos escenarios aplicativos, así como proyecciones de trabajos futuros para el desarrollo en el área.Facultad de Informátic

    Estrategias de Deep Learning en SLAM Activo

    Get PDF
    El SLAM (Simultanous Localisation and Mapping) activo hace referencia al problema de controlar el movimiento de un robot que está realizando SLAM, de forma que se minimice la incertidumbre del mapa creado y de su localización. Tradicionalmente ha sido resuelto mediante filtros u otras aproximaciones que involucran procesos de decisión de Markov o algoritmos de aprendizaje por refuerzo. En éstos, es necesario (i) identificar las posibles acciones, (ii) calcular el valor futuro esperado de cada una de ellas (e.g. mediante funciones de utilidad) y (iii) ejecutar la acción óptima. En este Trabajo Fin de Máster se analiza la resolución del problema mediante redes neuronales profundas, un campo de gran auge en la actualidad donde el aprendizaje por excelencia es el supervisado, que atrae la mayoría de investigaciones y aplicaciones de la literatura. La naturaleza del problema abordado, sin embargo, hace necesario el uso de otra forma de aprendizaje automático: el aprendizaje por refuerzo profundo. Se ha analizado el potencial y las limitaciones de este marco de trabajo, empleado normalmente en entornos de simulación sencillos, donde la diferencia entre exploración y navegación y el problema de generalización (clave en el SLAM activo, puesto que la información a priori del entorno es nula) son habitualmente obviados. Se han implementado distintas aproximaciones de aprendizaje por refuerzo y refuerzo profundo basadas en Q-learning sobre el entorno de simulación Gazebo. Ambos aprendizajes y su capacidad de generalización a escenarios desconocidos se estudian en profundidad, consiguiendo que agentes entrenados naveguen por entornos totalmente desconocidos. Además, se propone la inclusión de una métrica de la matriz de covarianza en la función de recompensa, consiguiendo una reducción de entropía paulatina durante la exploración y favoreciendo acciones mucho más óptimas en términos de reducción de la in- certidumbre.<br /

    Algoritmo de detección y estimación de trayectorias de obstáculos en desplazamientos vehiculares basado en visión computacional

    Get PDF
    "La navegación autónoma en vehículos terrestres se encuentra en desarrollo por distintas empresas privadas (automotriz, paquetería, agricultura, etc.) así como centros de investigación y desarrollo tecnológico, los cuales están trabajando en distintas técnicas y herramientas para alcanzar el desplazamiento autónomo. La evasión de obstáculos en ambientes reales es una problemática a resolver tomando en consideración que la detección y posterior estimación del recorrido de los objetos evita daños al vehículo además de daños a terceros. La tecnología utilizada actualmente (sensor láser de mapeo 3D) para la detección de obstáculos tiene el inconveniente de elevar los costos de los vehículos y las técnicas implementadas hasta el momento carecen del rendimiento requerido. Este trabajo de investigación propone un algoritmo basado en visión computacional para la estimación de trayectorias de objetos en la ruta de desplazamiento de un vehículo en ambientes de tránsito vehicular para prevenir colisiones"

    Generación de trayectorias robóticas mediante aprendizaje profundo por refuerzo

    Get PDF
    El proyecto explora las oportunidades que ofrece el aprendizaje automático por refuerzo al campo de la robótica mediante la implementación del algoritmo por refuerzo profundo DDPG, inspirado en los gradientes de políticas deterministas, para evaluarlo en una serie de entornos diferentes, con diferentes arquitecturas y parámetros. También se compara su rendimiento con el del planificador de última generación KPIECE en el campo de la planifi- cación de movimientos. El proyecto se diseña con un enfoque práctico, con posibilidad de llegar a implementar los métodos estudiados en robots reales

    Robots capaces de aprender y adaptarse al entorno a partir de sus propias experiencias

    Get PDF
    Entre los objetivos reconocidos en la robótica actual destaca la necesidad de disponer de robots adaptables, capaces de aprender del usuario y de la propia experiencia. Esta adaptación se debe extender a todo el tiempo de vida del robot, los errores y aciertos del robot deben permitir que éste pueda modificar su comportamiento futuro. En este sentido, el paradigma de aprendizaje por refuerzo resulta muy prometedor en la medida en que permite que un robot aprenda sin más información que un refuerzo extrínseco que indica cuando las acciones realizadas son correctas o no. Los algoritmos tradicionales de aprendizaje por refuerzo se limitan a comportamientos reactivos simples y rara vez se aplican al aprendizaje directo en robots moviéndose en entornos reales. De hecho, el aprendizaje por refuerzo suele ser lento y requerir un proceso de exploración costoso. Por otra parte, el tiempo de aprendizaje se incrementa de forma exponencial con el número de estados (situaciones significativamente diferentes) que puede encontrar el robot. Con el objetivo de superar estas limitaciones en esta tesis se abordaron cuatro grandes objetivos: a) Algoritmos más interpretables y con menos parámetros: los algoritmos clásicos de aprendizaje por refuerzo intentan predecir el refuerzo futuro que el robot va a recibir. Esta información es difícilmente interpretable, lo que hace difícil corroborar si el proceso de aprendizaje se está llevando a cabo de forma correcta. Se ha desarrollado un nuevo algoritmo, llamado I_Tbf, capaz de aprender a predecir “cuándo el robot va a cometer un fallo”. La discrepancia entre lo que el sistema predice y lo que realmente sucede nos permite detectar problemas y corregirlos durante el propio proceso de aprendizaje. Las ventajas obtenidas con este algoritmo son: buenos tiempos de aprendizaje, un reducido número de parámetros y mayor interpretabilidad del proceso de aprendizaje. b) Aprendizaje simultáneo de percepción y acción: hemos creado un sistema capaz de aprender al mismo tiempo el espacio de estados y la acción a ejecutar en cada uno de estos estados. Partiendo de nuestro algoritmo I_Tbf, el sistema itera la política de control tratando de maximizar el tiempo a fallo. El espacio de estados se crea de forma dinámica: partiendo de un conjunto vacío se añaden nuevos estados a medida que el robot encuentra nuevas situaciones que no ha visto antes. La creación dinámica del espacio de estados evita el proceso de creación y evaluación de representaciones de estados ad hoc. Para lograr la generación dinámica de estados hemos recurrido a la Teoría de Resonancia Adaptativa (ART) adaptándola a nuestro problema. c) Reducción del tiempo de aprendizaje a través de la creación de comités de aprendedores: para acelerar los procesos de aprendizaje resulta conveniente recurrir a estrategias habituales en el campo de las redes neuronales artificiales dirigidas a evitar el “sobre-aprendizaje” y la falta de generalización. Por este motivo, el uso de comités de “aprendedores” que, mediante diferentes estrategias de voto ponderado, son capaces de seleccionar la acción que debe ejecutar el robot en cada instante, permiten acelerar el proceso de aprendizaje mientras se mantiene una buena generalización. Gracias al incremento de estabilidad proporcionado por el comité, se puede introducir el concepto de aprendizaje continuo, donde el sistema es capaz de aprender durante todo el ciclo de vida del robot, sin que el comportamiento sufra grandes inestabilidades. Se han realizado pruebas donde la señal de refuerzo era proporcionada por un usuario humano. Pese a que dicha señal tenía una gran componente no determinista, gracias a la estabilidad proporcionada por el comité de aprendedores el sistema es capaz de alcanzar la convergencia en pocos minutos. d) Determinación de la relevancia sensorial: muchas de las entradas sensoriales proporcionadas por los modernos sensores de alta resolución son irrelevantes para la tarea que el robot está intentando aprender. Estas dimensiones irrelevantes pueden provocar errores en las estrategias de clustering. Esto es algo conocido como la maldición de las dimensiones. En esta tesis se ha investigado el uso de criterios estadísticos basados en la teoría de la información, y la información mutua, para determinar, de forma dinámica, el subconjunto de sensores que es realmente relevante para lo que el robot quiere aprender. El uso de este subconjunto de sensores proporciona una reducción significativa del tiempo de aprendizaje, así como un aumento de la robustez de los comportamientos

    La herramienta spss en el aprendizaje de la estadistica II en los estudiantes de Administración de Negocios de la Universidad Alas Peruanas, Sede Chosica, 2015

    Get PDF
    La presente investigación “La herramienta spss en el aprendizaje de la estadistica II en los estudiantes de Administración de Negocios de la Universidad Alas Peruanas, Sede Chosica, 2015”, tiene como propósito contribuir en el proceso de enseñanza aprendizaje de la asignatura Estadística II a nivel superior en los primeros ciclos de la formación profesional de los estudiantes de la carrera de Administración de negocios de la Universidad Alas Peruanas, sede Chosica. El trabajo de investigación es el resultado experimentar la relación de causalidad entre las variables: Aplicación de la Herramienta SPSS en el Aprendizaje de Estadística II en la carrera de Administración de negocios de la UAP. La muestra está constituida por todos los estudiantes matriculados en la asignatura de Estadística II, que estuvieron distribuidos en dos secciones y que en total suman 59 estudiantes. Los instrumentos que se han construido, validado y aplicado fueron los test de conocimiento conceptual, conocimiento procedimental y conocimiento actitudinal, las que permitieron medir el aprendizaje de Estadística II. Los resultados más relevantes de la investigación lo constituye la elaboración de los materiales de aprendizaje de Estadística II, mediante la aplicación de SPSS, aplicación de los materiales, recojo de datos, la prueba de hipótesis y el logro de objetivos propuestos. El material de aprendizaje se basó en los contenidos de la asignatura de Estadística II, parte del currículo de los estudiantes del cuarto ciclo académico de la carrera de Administración de negocios de la UAP, teniendo como fuente la teoría del aprendizaje significativo desde la perspectiva Ausubeliana. La hipótesis general fue probada a través de las hipótesis específicas, llegando a confirmar que la aplicación del módulo de enseñanza de Estadística II mediante la aplicación de SPSS, permite obtener un mayor aprendizaje significativo en los estudiantes en relación de forma convencional. Asimismo, se comprobó que la estrategia de aprendizaje en el que se utiliza el módulo de aprendizaje de Estadística II, favoreció en lo conceptual, procedimental y actitudinal a los estudiantes que participaron en la fase de tratamiento de la variable independiente, tal como nos indican los resultados del procesamiento estadístico de los datos través de la prueba t – Student. Así contrastándose la hipótesis formulada en la investigaciónUniversidad Nacional de Educación Enrique Guzmán y Valle. Escuela de Posgrado.Tesi

    Improving quality of service for video coding using reinforcement learning

    Get PDF
    Trabajo Fin de Grado en Ingeniaría Informática, Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2020/2021.El aprendizaje por refuerzo es uno de los tres grandes paradigmas de la inteligencia artificial junto al aprendizaje supervisado y al no supervisado. Su uso se ha extendido a lo largo de los años y se ha demostrado su eficacia en áreas como la robótica, el trading financiero o incluso en la simulación de videojuegos. Está enfocado principalmente a problemas de optimización, problemas que normalmente son difíciles de resolver y necesitan de un gran despliegue en recursos humanos y técnicos para encontrar una solución. Es por eso por lo que existe la posibilidad de crear un sistema de aprendizaje artificial como es el del aprendizaje por refuerzo que nos facilita la tarea, abaratando costes y automatizando el proceso. En este trabajo se realizó un estudio sobre el aprendizaje por refuerzo y su aplicación en un ejemplo de uso concreto, la optimización de recursos de un procesador para la ejecución de Kvazaar, un codificador de vídeo de código abierto. La tarea consistió en crear un sistema agente-entorno típico del paradigma de aprendizaje por refuerzo usando las librerías RLLIB, una API que proporciona las herramientas crear agentes de aprendizaje por refuerzo y GYM, una librería para crear entornos. A partir de ahí, se discutieron los resultados de tal modo que se siguiese ajustando el modelo hasta llegar a nuestro objetivo anteriormente mencionado.Reinforcement learning is one of the three most important artificial intelligence paradigms alongside supervised learning and non-supervised learning. Its use has been growing meaningfully in areas such as robotics, financial trading, or videogames simulation. It is thought towards optimization problems, problems that are usually hard to solve and need lots of computational and human resources. That is why creating a reinforcement learning environment helps saving costs and automate the process. This project is an investigation about the reinforcement learning paradigm and its application on a specific use case, resources optimization of a CPU in Kvazaar’s execution, an open-source video encoder. The main task was to develop an agent-environment system using RLLIB, an API that brings all the needed tools for creating agents and GYM, a library that standardizes environments. From that, results were discussed to adjust the model until getting the objective, the optimization of CPU resources to get the above-mentioned objective.Depto. de Arquitectura de Computadores y AutomáticaFac. de InformáticaTRUEunpu
    corecore